6. Ajustement exponentiel

On donne ci-dessous des statistiques sur la sécurité routière en France :

année

NT

NB

NA

85

10.4

270.8

191.1

90

10.3

225.9

162.6

95

8.4

181.4

132.9

96

8.13

170.1

125.4

97

8.0

169.6

125.2

avec les conventions suivantes :

·        NT : nombre de tués (en milliers)

·        NB : nombre de blessés (en milliers)

·        NA : : nombre d’accidents (en milliers)

1) On représente graphiquement les couples de la forme (année, NA) pour déterminer la nature de la liaison. On peut bien sûr relier les points par des segments de droite : cela revient à effectuer une interpolation linéaire entre deux années successives.

1) La diminution du nombre d’accidents entre 1985 et 1997 est évidente, mais il est bien difficile de choisir à l’aide du seul graphique si cette décroissance est linéaire ou exponentielle. On suppose tout d’abord que la liaison est linéaire. Le tableau de calcul est donné ci-dessous :

x

y

xy

1

85

191.1

7225

36519.2110

16243.5000

2

90

162.6

8100

26438.7598

14634.0000

3

95

132.9

9025

17662.4102

12625.5000

4

96

125.4

9216

15725.1602

12038.4004

5

97

125.2

9409

15675.0400

12144.4004

Sommes

463

 737.2

 42975

 112020.6

 67685.8

 

On en déduit l’équation de la droite de régression :

NA » -5.721 t + 677.1633

Le nombre d’accidents prévu pour 2000 est égal à :

NA » -5.721 x 100 + 677.1633

NA » 105.1079

Les erreurs d’estimation en chaque point (que l’on appelle résidus) sont calculées dans le tableau ci-dessous : 

Année

NA estimé

NA observé

Erreur

85

190.9162

191.1

0.18

90

162.3134

162.6

0.29

95

133.7107

132.9

-0.82

96

127.9901

125.4

-2.59

97

122.2696

125.2

2.93

On vérifiera que ces erreurs sont de moyenne nulle aux approximations près). On sait aussi que la somme de leurs carrés est la plus petite possible. Leur variance est égale à :

s2 = 3.213875

2) On peut penser aussi à une décroissance exponentielle en considérant que la diminution, de 60 000 entre 85 et 95, ne peut guère continuer à ce rythme puisque le nombre est toujours positif.

On considère comme variable expliquée le logarithme du nombre d’accidents ln(NA) et l’année t comme variable explicative.

x = année

y = ln(NA)

xy

1

85

5.2528

7225

27.5919

446.4877

2

90

5.0913

8100

25.9213

458.2164

3

95

4.8896

9025

23.9082

464.5117

4

96

4.8315

9216

23.3435

463.8248

5

97

4.8299

9409

23.3281

468.5015

Sommes

463

24.89511

42975

124.0928

2301.542

On déduit des sommes ci-dessus les coefficients de la droite de régression :

log(NA) » -0.0161 t + 3.65080

L’an 2000 est codé par t = 100, et on obtient :

log(NA) » -1.61 + 3.65080 » -1.61 + 3.65080» 2.043413

NA » 110,51

On calcule de la même façon les estimations pour les années observées.

Année

log(NA) estimé

NA estimé

NA observé

erreur

85

2.284522

192.54

191.1

-1.44

90

2.204152

160.01

162.6

2.59

95

2.123783

132.98

132.9

-0.08

96

2.107709

128.15

125.4

-2.75

97

2.091635

123.49

125.2

1.71

Les erreurs sur les effectifs ne possèdent plus les propriétés des résidus puisque la régression linéaire a été effectuée sur les logarithmes. Elles ne sont plus nécessairement de moyenne nulle, et la somme de leurs carrés est supérieure à la somme des carrés des résidus précédents, qui est minimale.

Moyenne des erreurs

Moyenne des carrés

0.0006

3.85494

La moyenne des carrés des erreurs est nettement supérieure à la précédente, à cause des erreurs commises en 85 et 90 particulièrement élevées.